Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
3D人类的姿势和形状估计(又称“人网恢复”)取得了实质性进展。研究人员主要关注新算法的发展,而对涉及的其他关键因素的关注较少。这可能会导致最佳基线,从而阻碍对新设计方法的公平和忠实的评估。为了解决这个问题,这项工作从算法以外的三个探索性观点中提出了首次全面的基准测试研究。 1)数据集。对31个数据集的分析揭示了数据样本的不同影响:具有关键属性的数据集(即多样化的姿势,形状,相机特征,骨干特征)更有效。高质量数据集的战略选择和组合可以显着提高模型性能。 2)骨干。从CNN到变压器的10个骨干的实验表明,从接近任务中学到的知识很容易转移到人网状恢复中。 3)培训策略。正确的增强技术和损失设计至关重要。通过上述发现,我们在具有相对简单的模型的3DPW测试集上实现了47.3 mm的PA-MPJPE。更重要的是,我们为算法的公平比较提供了强大的基准,以及将来建立有效培训配置的建议。代码库可在http://github.com/smplbody/hmr-benchmarks上获得
translated by 谷歌翻译
我们提出了针对微小神经网络的域概括(DG)的系统研究,这个问题对于机上机器学习应用至关重要,但在研究仅针对大型模型的文献中被忽略了。微小的神经网络具有较少的参数和较低的复杂性,因此不应以与DG应用的大型同行相同的方式进行训练。我们发现知识蒸馏是解决问题的有力候选者:它优于使用具有较大利润的大型模型开发的最先进的DG方法。此外,我们观察到,与域移动有关的测试数据上的教师学生绩效差距大于分布数据的绩效差距。为了改善微小神经网络而不增加部署成本的DG,我们提出了一个简单的想法,称为分布外知识蒸馏(OKD),该想法旨在教导学生如何处理(综合)分发数据和分布数据和被证明是解决问题的有前途的框架。我们还为创建DG数据集的可扩展方法(在上下文中称为域移动(DOSCO))提供了可扩展的方法,该数据可以在不大量努力的情况下按大规模应用大量数据。代码和模型以\ url {https://github.com/kaiyangzhou/on-device-dg}发布。
translated by 谷歌翻译
如今,基础模型已成为人工智能中的基本基础设施之一,铺平了通往通用情报的方式。但是,现实提出了两个紧急挑战:现有的基础模型由英语社区主导;用户通常会获得有限的资源,因此不能总是使用基础模型。为了支持中文社区的发展,我们介绍了一个名为Fengshenbang的开源项目,该项目由认知计算与自然语言研究中心(CCNL)领导。我们的项目具有全面的功能,包括大型预培训模型,用户友好的API,基准,数据集等。我们将所有这些都包装在三个子项目中:风水次模型,风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区,促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统,以允许个人访问所需的模型以匹配其计算资源。此外,我们邀请公司,大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
我们提出了一个新的照明估计和编辑框架,以从单个有限视野(LFOV)图像中生成高动力范围(HDR)室内全景照明,该图像由低动力范围(LDR)摄像机捕获。现有的照明估计方法要么直接回归照明表示参数,要么将此问题分解为LFOV到panorama和LDR-TO-HDR照明子任务。但是,由于部分观察,高动力范围的照明以及场景的内在歧义,照明估计仍然是一项艰巨的任务。为了解决这个问题,我们建议将LDR和HDR Panorama合成融合到统一框架中,提出了一个耦合的双式全景全景合成网络(Stylelight)。 LDR和HDR Panorama合成共享类似的发电机,但具有单独的歧视器。在推断期间,给定LDR LFOV图像,我们提出了一种焦点掩盖的GAN反转方法,以通过LDR Panorama合成分支找到其潜在代码,然后通过HDR Panorama合成分支合成HDR Panorama。 Stylelight将LFOV-TO-PANORAMA和LDR-HDR LIGHTING GENTARTION带入统一的框架,从而大大改善了照明估计。广泛的实验表明,我们的框架在室内照明估计上实现了优于最先进方法的表现。值得注意的是,Stylelight还可以在室内HDR Panoramas上进行直观的照明编辑,这适用于现实世界中的应用。代码可从https://style-light.github.io获得。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
现有的研究解决场景图生成(SGG) - 图像中场景理解的关键技术 - 从检测角度,即使用边界框检测到对象,然后预测其成对关系。我们认为这种范式引起了几个阻碍该领域进步的问题。例如,当前数据集中的基于框的标签通常包含冗余类,例如头发,并遗漏对上下文理解至关重要的背景信息。在这项工作中,我们介绍了Panoptic场景图生成(PSG),这是一项新的问题任务,要求该模型基于全景分割而不是刚性边界框生成更全面的场景图表示。一个高质量的PSG数据集包含可可和视觉基因组的49k井被宣传的重叠图像,是为社区创建的,以跟踪其进度。为了进行基准测试,我们构建了四个两阶段基线,这些基线是根据SGG中的经典方法修改的,以及两个单阶段基准,称为PSGTR和PSGFORMER,它们基于基于高效的变压器检测器,即detr。虽然PSGTR使用一组查询来直接学习三重态,但PSGFormer以来自两个变压器解码器的查询形式分别模拟对象和关系,然后是一种迅速的关系 - 对象对象匹配机制。最后,我们分享了关于公开挑战和未来方向的见解。
translated by 谷歌翻译
定义和分离癌症亚型对于促进个性化治疗方式和患者预后至关重要。由于我们深入了解,子类型的定义一直在经常重新校准。在此重新校准期间,研究人员通常依靠癌症数据的聚类来提供直观的视觉参考,以揭示亚型的内在特征。聚集的数据通常是OMICS数据,例如与基本生物学机制有很强相关性的转录组学。但是,尽管现有的研究显示出令人鼓舞的结果,但它们却遭受了与OMICS数据相关的问题:样本稀缺性和高维度。因此,现有方法通常会施加不切实际的假设来从数据中提取有用的特征,同时避免过度拟合虚假相关性。在本文中,我们建议利用最近的强生成模型量化量化自动编码器(VQ-VAE),以解决数据问题并提取信息的潜在特征,这些特征对于后续聚类的质量至关重要,仅保留与重建有关的信息相关的信息输入。 VQ-VAE不会施加严格的假设,因此其潜在特征是输入的更好表示,能够使用任何主流群集方法产生出色的聚类性能。在包括10种不同癌症的多个数据集上进行的广泛实验和医学分析表明,VQ-VAE聚类结果可以显着,稳健地改善对普遍的亚型系统的预后。
translated by 谷歌翻译